XXXVI Congresso Nazionale Associazione Italiana di Psicologia Sezione Psicologia Sperimentale 23 - 25 Settembre 2024 | Cagliari
La cluster analysis è un metodo (tipicamente) esplorativo che comprende una famiglia di metodi di unsupervised machine learning che raggruppano le osservazioni in gruppi più piccoli (clusters) che condividono proprietà simili.
Oggi ci concentreremo su due metodi di clustering:
Gaussian mixture models:
Approccio model based
Assunto di normalità
Stima parametri e covarianza tra clusters
K-means:
Approccio non parametrico
Non fa assunti sulle distribuzioni
Basato sulla distanza eculidea tra osservazioni
Necessaria ortogonalità tra variabili
In ambito di profilazione nelle aziende viene spesso utilizzato il clustering per suddividere la popolazione in più sottogruppi.
Se però intendiamo trarre conclusioni sulla popolazione target e fare quindi inferenza occorre essere più cauti.
La prima domanda che ci poniamo è sicuramente: Ho abbastanza potenza?
Dalmaijer et al. (2023) suggerisce un power adeguato anche per campioni piccoli se si hanno 30 indicatori indipendenti e ortogonali che condividono informazioni che contribuiscono a definire l’appartenenza ai clusters (d = .68 tra cluster).
I dati psicologici sono raramente normali. La maggior parte di essi (questionari, test) sono il risultato di processi binomiali o multinomiali. Anche piccoli gradi di non-normalità dovrebbero essere sempre previsti.
I dati psicologici sono raramente ortogonali. Molti mostrano piccole correlazioni e, per esempio, i dati cognitivi mostrano una sistematica “manifold positiva”.
Quando usiamo il k-means con variabili correlate troviamo cluster che non esistono e più partecipanti abbiamo, più è facile trovarli.
Quando usiamo il GMM con variabili asimmetriche: ci risiamo
Un primo step è controllare le distribuzioni dei nostri dati e l’ortogonalità delle variabili. Idealmente si dovrebbe poi procedere a valutare errore di primo e secondo tipo e power.
Simulazione dei dati. Per semplificare, abbiamo preparato una shiny app che lo fa per te.
https://psicostat.shinyapps.io/clustersimulation-demo/
E un tutorial step by step per scenari più complessi (con r):
Ambra Perugini
ambra.perugini\(@\)phd.unipd.it
https://psicostat.dpss.psy.unipd.it/people.html
Toffalini, E., Gambarota, F., Perugini, A., Girardi, P., Tobia, V., Altoè, G., … & Feraco, T. Clusters that are not there: An R tutorial and a Shiny app to quantify a priori inferential risks when using clustering methods. International journal of psychology: Journal international de psychologie.
Ambra Perugin (ambra.perugini@phd.unipd.it)